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摘要 :， 提 出 了 一 种 混合 小 波 变换 和 卷 积 神经 网 络 模型 的 时 序数 据 自动 寻 峰 方法 ， 可 用 于 光 变 曲 
线 峰 的 快速 识别 ， 从 海量 数据 中 快速 发 现 潜在 暂 现 源 。 在 硬 X 射线 调制 望远镜 真实 观测 数据 上 
的 实验 结果 显示 ， 相 比 于 光谱 寻 峰 、 化 学 谱 寻 峰 等 问题 中 常用 的 小 波 变 换 寻 峰 方 法 ， 该 方法 得 
出 的 寻 峰 查 准 率 提升 了 4296, F1 值 提升 了 41.3%%， 误 报 率 降低 了 42.1%， 而 寻 峰 时 间 仪 增加 了 
0.18 s， 基 本 满足 实时 检测 的 要 求 。 所 得 结果 证 明了 该 方法 在 光 变 曲线 寻 峰 问题 上 的 有 效 性 。 
关 键 词 : 寻 峰 方法 ， 光 变 曲线 ， 卷 积 神经 网 络 ， 小 波 分 析 
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本 文 使 用 小 波 阔 值 降 噪 方法 对 曲线 进行 降 噪 。 

小 波 阔 值 降 噪 ” 是 对 原始 光 变 曲线 进 行 离散 小 波 变换 后 ， 得 到 一 系列 小 波 系数 wje H 
中 包括 真实 信号 对 应 的 小 波 系数 和 噪声 对 应 的 小 波 系数 。 当 小 波 系数 值 大 于 设 定 的 阔 值 时 ， 
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2.1.4 数据 标准 化 
在 卷 积 网 络 模型 训练 及 检测 阶段 ， 为 提升 模型 精度 及 训练 速度 ， 对 数据 集 进行 简单 的 标 
准 化 。 映 射 转换 的 过 程 如 式 (7) 所 示 : 
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准 化 操作 不 会 改变 光 变 曲线 的 形态 特征 。 标 准 化 后 的 数据 仅 用 于 神经 网 络 模型 部 分 ， 小 波 寻 
峰 所 使 用 数据 不 需要 进行 标准 化 。 
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是 标准 化 后 的 光 变 曲线 ，/ 是 原 光 变 曲线 的 均值 ，o 是 原 光 变 曲线 的 标准 差 。 标 


2.2 ”基于 小 波 变换 的 候选 峰 提取 
本 文 使 用 连续 小 波 变 换 将 光 变 曲线 信号 分 解 为 一 系列 小 波 函 数 的 又 加 ， 表 现 出 信号 的 
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局 部 特性 。 


经 过 变换 后 ， 小 波 系 数 表示 小 波 函 数 与 信号 的 相似 度 ， 系 数 越 大 说 明 相似 度 越 
以 将 寻 峰 问题 转变 为 对 小 波 系 数 最 大 值 的 检索 。 附 录 A 给 出 连续 小 波 变 换 方法 。 


小 波 变 换 方法 可 以 直接 在 预 处 理 后 的 曲线 上 寻 峰 ,但 易 检 测 出 较 多 的 “ 假 峰 ”， 因 此 ， 
通过 阔 值 法 对 得 出 的 峰 进 行 第 选 。 首 先 对 光 变 曲线 的 数值 按 从 小 到 大 的 顺序 排序 ， 然 后 取 第 
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M 个 值 作为 闹 值 ， 仪 保留 小 波 变 换 寻 峰 结 果 中 大 于 该 闵 值 的 峰 。 阔 值 的 计算 方法 为 : 


M -—|Lxq4| , (8) 


RF, L 为 光 变 曲线 的 长 度 ，4 为 分 位 数 。 

2.3 ”基于 卷 积 网 络 的 候选 峰 判 别 

通过 小 波 变 换 寻 峰 可 以 得 到 若干 个 候选 峰 的 最 大 值 点 ， 针 对 每 个 候选 峰 位 点 ， 在 原始 光 
变 曲线 和 预 处 理 后 的 光 变 曲线 上 分 别 用 宽度 为 ww， 步 长 为 s = 1 的 滑 窗 截取 多 个 包含 候选 峰 
Zpeak 的 片段 ， 将 对 应 位 置 的 片段 进行 县 加 后 得 到 多 个 维度 为 2w 的 数据 段 ， 作 为 卷 积 判别 
模型 的 输入 (如 图 4 所 示 )， 逐 一 进行 是 否 包含 峰 的 判别 ， 如 果 这 些 片 段 中 包含 峰 的 概率 超 
过 预 设 值 2， 则 保留 对 应 的 峰 。 对 每 个 候选 峰 进 行 上 述 判别 后 ， 留 下 的 峰 为 最 终结 果 。 


原始 光 变 曲线 片段 : w 


形态 学 变换 后 的 光 变 曲线 片段 ， mw CNN 模 型 的 输入 : 2w 


JE: poak 为 连续 小 波 变换 寻 峰 得 到 的 候选 峰 。 


4 DRE 


3 卷 积 判别 模型 的 构建 


使 用 小 波 变换 寻 峰 得 到 一 系列 候选 峰 后 ， 使 用 卷 积 网 络 模型 对 包含 候选 峰 的 片段 进行 
筛选 。 这 里 采用 监督 学 习 的 方法 构建 判别 模型 ， 主 要 途径 是 ， 对 数据 进行 切 分 和 标注 ， 并 使 
用 切 分 后 的 数据 片段 训练 一 个 二 分 类 模型 。 
3.1 ”数据 切 分 及 标注 

模型 的 输入 为 2X200 大 小 的 光 变 曲线 片段 ， 因 此 使 用 宽度 为 w = 200， 步 长 为 s 的 滑 
窗 分 别 对 原始 光 变 曲线 和 预 处 理 后 的 光 变 曲线 进行 切 分 ， 再 将 对 应 位 置 的 数据 段 进 行营 加 ， 
得 到 可 用 的 训练 数据 。 切 分 后 的 数据 段 中 ， 包 含 峰 的 片段 为 正 样 本 ， 设 置 标签 为 1; 不 包含 
峰 的 片段 为 负 样 本 ， 设 置 标签 为 0。 数据 切 分 方式 如 图 5 Bras. 
3.2 ” 卷 积 网 络 结构 及 训练 设置 

光 变 曲线 寻 峰 问题 可 以 视 为 对 光 变 曲线 片段 是 否 包 含 峰 的 判别 问题 ， 即 二 分 类 问题 ， 可 
以 使 用 卷 积 网 络 模型 进行 分 类 。 本 文 使 用 的 卷 积 网 络 模型 结构 在 附录 B 中 。 

在 模型 训练 阶段 ， 选 择 分 类 问题 中 常用 的 softmax 作为 损失 函数 ， 并 采用 自 适应 和 矩 估计 
(adaptive moment estimation, Adam)" 作为 参数 优化 器 ， 调 节 模 型 的 权重 ， 使 损失 函数 取 
极 小 。 模 型 训练 过 程 中 ， 优 化 器 的 初始 学 习 率 为 lr = 1074, batch size 设置 为 600， 每 次 分 
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一 
PN 7 7 7 M s 
" a a, a f 
2777 A ZU ZR 


样本 a 
ik: 空白 部 分 表示 不 含 峰 数 据 段 ， 标 签 为 0;， 阴 影 部 分 表示 含 峰 数据 段 ， 标 签 为 1。 


图 5 ”数据 切 分 图 示 


类 实验 均 进行 2000 KERM. PHI dropout 层 可 以 提高 网 络 模型 的 泛 化 性 ”。 确 定 
网 络 结构 和 初始 参数 后 ， 用 3.1 节 所 述 方法 对 数据 切 分 后 得 到 的 数据 集 来 训练 和 评估 模型 。 


4 实验 与 结果 


4.1 ”实验 数据 
4.1.1 数据 选择 

WE X 射线 调制 望远镜 (Hard X-ray Modulation Telescope, HXMT) 卫星 是 我 国 第 一 个 
空间 天 文 卫星 ”， 具 有 三 种 观测 模式 ， 指 向、 扫描 和 低 增 益 模 式 。 其 高 能 望远镜 ”的 CsI 
探测 器 也 可 以 作为 伽 马 暴 监测 仪 ， 在 正常 模式 及 低 增益 模式 下 均 能 探测 到 瞬 变 现象 的 发 生 。 
本 文 主要 针对 正常 模式 下 的 数据 进行 分 析 。 这 里 选取 2017—2019 年 HXMT 高 能 载荷 的 1B 
级 数据 产品 解 算 的 光 变 曲线 作为 寻 峰 模型 的 实验 数据 ， 并 根据 全 球 伽 马 暴 坐 标 网 (GCN) 选 
出 HXMT 确认 发 生 伽 马 暴 起 始 时 刻 对 应 前 后 30 min 左右 ， 总 长 度 为 1p 的 数据 作为 一 个 
样本 。 按 照 该 方法 ， 从 2017 一 2019 年 的 观测 数据 中 提取 出 106 个 光 变 曲线 样本 ， 其 中 包括 
107 个 认证 的 伽 马 暴 。 
4.1.2 训练 集 、 验 证 集 、 测 试 集 划分 

从 全 部 106 个 光 变 曲线 数据 中 随机 选取 30 个 作为 测试 集 ， 其 中 包含 30 个 峰 ， 用 于 网 
络 模型 的 测试 ， 剩余 76 个 光 变 曲线 作为 模型 的 训练 样本 ， 其 中 包含 77 个 峰 。 按 3.1 节 所 述 
方法 ， 根 据 GCN 中 伽 马 暴 的 发 生 时 间 及 时 长 记录 ， 对 光 变 曲线 采用 不 同 的 滑动 步 长 进行 切 
分 。 对 于 包含 伽 马 暴 的 片段 设置 滑动 步 长 s = 1， 并 设置 曲线 片段 的 标签 为 1， 对 于 不 包含 
伽 马 暴 的 片段 分 别 设 置 滑动 步 长 s = 1, s= 10, s = 20 切 分 数据 ， 并 设置 曲线 片段 的 标签 为 
0。 再 在 保证 正 负 样 本 比例 的 情况 下 ， 按 照 7:3 随机 划分 为 训练 集 和 验证 集 ， 分 别 用 于 网 络 
模型 的 训练 和 验证 ， 各 数据 集 分 布 如 表 1 所 示 。 

表 1 中 ， 滑 窗 步 长 取 s=1 和 s= 10 时 正 负 样本 数量 相差 较 大 ， 训 练 出 的 卷 积 网 络 模 
型 应 用 于 新 数据 时 ， 更 容易 将 其 分 类 为 训练 样本 数量 多 的 类 别 ， 准 确 性 和 和 鲁 棱 性 较 差 ， 但 能 
够 更 全 面 地 和 覆盖 光 变 曲线 的 各 个 部 分 ; 滑 窗 步 长 取 s = 20 时 ， 正 负 样 本 数 相对 均衡 ， 能 够 
训练 出 准确 性 更 好 的 模型 ， 但 是 对 样本 的 认识 不 够 全 面 ，4.4 节 中 会 对 不 同 滑 窗 步 长 切 分 的 
数据 训练 得 到 的 模型 性 能 进行 比较 。 
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表 1 取 不 同 滑 窗 步 长 时 的 数据 集 分 布 
滑动 步 长 ”训练 样本 数 。” 正 样本 数 ” 负 样本 数 。 训练 集 ”验证 集 


1 241 580 12 711 228 869 169 106 72 474 
10 36 014 12 711 23 303 25 209 10 805 
20 24 397 12 711 11 686 17 077 7 320 


4.2 ”实验 平台 及 评价 指标 

卷 积 神经 网 络 基于 TensorFlow 1.14 搭建 ， 使 用 1 块 Tesla K80 显卡 完成 训练 。 

对 于 光 变 曲线 片段 是 否 包 含 峰 ， 如 果 卷 积 网 络 模型 输出 的 预测 值 y 与 实际 值 y 相同 ， 
则 认为 该 模型 能 够 正确 识别 出 光 变 曲线 片段 的 峰 。 通 过 比较 卷 积 网 络 模型 输出 的 预测 值 y 
和 实际 值 y 可 以 评估 本 文 所 提出 的 方法 在 HXMT 光 变 曲线 寻 峰 问题 上 的 有 效 性 。 使 用 分 类 
问题 中 常用 的 5 种 评估 指标 对 本 文 卷 积 网 络 模型 的 分 类 性 能 及 本 文 提出 方法 的 寻 峰 性 能 进 
行 评价 ， 包 括 准确 率 、 精 确 率 、 召 回 率 、 误 报 率 和 Fl 值 ， 其 中 准确 率 仅 在 评估 CNN 模型 
的 分 类 效果 时 使 用 。 各 评价 指标 的 计算 方法 在 附录 C 中 。 
4.3 ”模型 训练 结果 

本 文 使 用 4.1.2 节 中 划分 得 到 的 训练 集 和 验证 集 进行 卷 积 神经 网 络 模 型 的 训练 。 在 光 变 
曲线 数据 输入 网 络 之 前 ， 先 按 2.1 节 所 述 方 法 对 其 进行 数据 预 处 理 操作 ， 并 将 原始 数据 和 预 
处 理 后 的 数据 同时 输入 网 络 ， 作 为 光 变 曲线 的 两 个 特征 。 
图 6 展示 了 使 用 不 同 滑 窗 步 长 的 数据 集 模型 的 训练 过 程 ，s = 1 时 模型 收敛 速度 最 快 
上 且 准 确 率 最 高 ， 随 着 s 增 大 ， 模 型 收敛 速度 变 慢 ， 训 练 趋 于 平稳 时 的 损失 增 大 ， 准 确 率 减 
小 。 三 种 滑 窗 步 长 的 切 分 方案 下 ， 经 过 2000 轮训 练 后 ， 模 型 的 损失 函数 值 和 准确 率 都 趋 于 
平稳 。 


----s=1 训 练 集 
一 一 s=1 验 证 集 
----s=10 训 练 集 
一 一 s=10 验 证 集 
----s=20 训 练 集 
一 一 s=20 验 证 集 


训练 损失 


` 10° 10! 10? 10? 10° 10! 10? 
迭代 次 数 迭代 次 数 
a) b) 
注 : a) 训练 损失 线 ; b) 训练 准确 率 线 。 


图 6 卷 积 神经 网 络 的 训练 过 程 


10? 


图 7 展示 了 将 模型 用 于 测试 集 分 类 时 的 各 项 指标 值 。 随 着 滑 窗 步 长 的 增加 ， 模 型 在 测试 
集 上 的 准确 率 逐 渐 下 降 ， 召 回 率 和 了 1l 值 逐 渐 上 升 ， 是 由 于 增 大 滑 窗 步 长 会 减少 对 负 样 本 的 
数量 ， 训 练 数据 集中 正 负 样 本 数 更 为 均衡 ， 模 型 不 容易 “偏向 ”数量 较 多 的 样本 类 别 。 由 以 
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上 实验 结果 可 以 证 明 ， 卷 积 神经 网 络 用 于 光 变 曲线 片段 的 分 类 具有 一 定 的 可 行 性 。 


1.0 


0.8 


0.6 


比率 


0.4 


准确 率 精确 率 召回 率 F1 值 RRE 
各 项 指标 
图 7 卷 积 网 络 模型 在 测试 集 上 的 分 类 表现 


4.4 实验 结果 分 析 

4.3 节 得 到 的 模型 分 别 在 测试 集 上 进行 测试 。 卷 积 神经 网 络 判 别 光 变 曲线 片段 分 类 的 依 
据 为 其 是 否 包 含 峰 的 概率 : 如 果 概 率 较 大 ， 说 明峰 在 该 片段 中 较为 显著 ， 易 于 分 辨 ， 如 果 概 
率 较 小 ， 说 明 该 片段 中 的 峰 并 不 明显 或 不 存在 峰 。 因 此 可 以 将 神经 网 络 的 输出 概率 值 作为 峰 
的 显著 性 度量 ， 在 实验 中 同时 对 测试 集 数据 的 模型 输出 概率 进行 统计 。 以 滑动 步 长 为 20 的 
模型 为 例 ， 取 测试 集中 所 有 含 峰 片 段 ， 并 随机 选取 相同 数量 的 无 峰 片 段 ， 含 峰 概率 统计 结果 
如 图 8 所 示 。 


8 ”测试 集 光 变 曲线 片段 (已 归 一 化 ) 含 峰 概率 分 布 


由 图 8 可 以 看 出 ， 对 大 部 分 含 峰 片段 ， 模 型 判断 其 含 峰 概率 在 0.9 ~ 1 之 间 ， 而 大 部 分 
无 峰 片 段 的 含 峰 概率 在 0 ~ 0.1 之 间 ， 有 少量 标注 为 无 峰 的 片段 ， 模 型 给 出 了 大 于 0.9 的 含 
峰 概率 ， 可 能 是 由 于 这 些 片段 中 包含 在 预 处 理 阶 段 无 法 去 除 的 噪声 峰 。 
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针对 训练 集 取 不 同步 长 所 得 到 的 模型 ， 设 置 每 组 测试 中 含 峰 片段 的 概率 阔 值 p 的 取 值 
为 [0.5, 0.99]， 不 同 滑动 步 长 和 判别 概率 阐 值 p 对 寻 峰 结果 的 影响 如 图 9 所 示 。 


0.5 0.6 0.7 0.8 0.9 1.0 0.5 0.6 0.7 0.8 09 1.0 
P P 


图 9 MRRERTE RASKAR p 情况 下 寻 峰 结果 的 比较 


EG EAE BREL p 取 值 的 增 大 ， 数 据 集 取 不 同 滑 窗 步 长 切 分 时 的 模型 在 测试 集 上 表现 趋 
势 较为 相似 ， 均 为 Fl 值 先 上 升 后 下 降 ， 准 确 率 缓慢 上 升 ， 召 回 率 和 误 报 率 逐 渐 下 降 ， 精 确 
度 逐 渐 上 升 ， 并 且 训 练 模型 时 数据 切 分 的 滑 窗 步 长 对 模型 有 较 大 影响 ， 可 在 实际 应 用 中 灵活 
调整 。 其 中 数据 集 滑 窗 步 长 为 10 的 模型 在 各 评价 指标 上 均 不 如 其 他 两 种 模型 ， 滑 窗 步 长 为 
1 的 模型 在 p = 0.8 时 F1 值 最 高 ， 为 0.721， 同 时 精确 率 和 召回 率 分 别 为 0.709 和 0.733， 误 
报 率 为 0.290， 检 测 结 果 比 其 他 两 种 模型 更 为 精确 ， 但 容易 漏 掉 一 些 真实 峰 ; 滑 窗 步 长 为 20 
的 模型 在 p = 0.93 时 F1 值 最 高 ， 为 0.676， 精 确 率 和 召回 率 分 别 为 0.571 和 0.8， 误 报 率 为 
0.425， 检 测 结果 能 够 更 多 地 覆盖 真实 峰 ， 但 误 报 率 较 高 ， 会 增 大 后 续 研 究 工 作 的 难度 。 涓 
窗 步 长 为 1 的 模型 与 滑 窗 步 长 为 20 的 模型 的 测试 结果 在 召回 率 和 精确 率 上 各 有 优势 ， 都 能 
效 解决 光 变 曲 线 的 自动 寻 峰 问题 。 


5 讨论 


本 文 使 用 传统 寻 峰 方法 中 的 连续 小 波 变换 寻 峰 方法 与 我 们 提出 的 方法 进行 实验 比较 。 
4.4 节 中 滑 窗 步 长 为 s = 10 的 数据 集训 练 得 到 的 模型 表现 最 差 ， 选 取 该 模型 的 实验 结果 与 小 
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波 变 换 寻 峰 在 测试 集 上 的 实验 结果 进行 比较 ， 如 图 10 所 示 。 


误 报 率 


召回 率 


1.0 
0.8 
0.6 
0.4 一 不 波 变换 tCNN 
一 小 波 变 换 寻 话 
05 06 07 08 09 10 05 06 07 08 09 LO 
BEXEBUR p (CNN) 概率 闵 值 p (CNN) 
0.9 
0.7 
0.5 
一 小 波 变换 TCNN 
0.3| 一 小 波 变换 寻 罗 


05 06 07 08 09 10 05 06 07 08 09 10 
RES] [Bp (CNN) TES] EL p (CNN) 


Wk: 蓝 线 表 示 仅 使 用 小 波 变换 方法 寻 峰 ， 红 线 表示 使 用 本 文 提 出 的 基于 小 波 变换 与 CNN 组 合 的 方法 寻 峰 。 


10 ” 滑 窗 步 长 为 s = 10 的 卷 积 网 络 模 型 与 小 波 寻 峰 在 测试 集 上 的 表现 比较 


小 波 寻 峰 方法 仅 在 召回 率 上 优 于 小 波 变换 与 CNN 组 合 的 方法 ， 在 其 他 三 个 评价 指标 上 


表现 明显 较 差 。 将 组 合 方法 中 概率 阔 值 取 p = 0.8 与 小 波 变 换 方法 中 分 位 数 取 9g = 0.99 进行 


对 比 从 而 发 现 ， 组 合 方法 的 Fl 值 提高 了 41.3%%， 准 确 率 提 高 了 42%， 误 报 率 降低 了 42.1906. 
当 小 波 变换 方法 的 分 位 数 取 较 大 值 时 ， 召 回 率 明 显 下 降 ， 直 至 低 于 组 合 方法 的 召回 率 ， 而 误 
报 率 始 终 高 于 组 合 方法 。 这 说 明 卷 积 网 络 模型 的 加 入 ， 有 效 地 去 除了 小 波 变换 寻 峰 结果 中 的 
大 量 假 峰 ， 但 同时 也 错误 地 去 除了 部 分 真实 峰 ， 这 种 情况 可 能 是 由 于 实验 数据 有 限 ， 模 型 没 


完全 学 习 到 峰 的 特征 ， 泛 化 性 不 足 。 在 未 来 的 观测 中 ， 可 以 通过 不 断 加 入 新 的 数据 动态 调 


整 模 型 ， 使 其 达到 更 高 的 检测 准确 率 ， 这 一 点 也 比 小 波 寻 峰 方 法 更 灵活 。 在 寻 峰 效率 方面 ， 
长 度 为 1 h 的 样本 时 ， 小 波 变 换 寻 峰 所 需 时 间 平 均 为 0.005 s， 本 文 方法 所 需 的 平均 时 


处 至 


间 为 0.188 s， 增 加 了 0.183 s， 虽 然 寻 峰 时 间 相 对 较 长 ， 但 寻 峰 的 准确 率 有 较 大 的 提升 ， 在 


处 到 


的 人 了 


大 批量 的 历史 数据 时 ， 可 能 需要 较 长 时 间 ， 准 确 率 的 提高 能 够 为 后 续 工 作 (如 瞬 变 事件 


[确认 等 ) 节省 工作 量 。 而 用 于 峰 的 实时 检测 时 ， 无 需 处 理 批量 数据 ， 基 本 能 够 达到 实 


时 检测 的 要 求 。 因此 ， 相 较 于 传统 小 波 变 换 寻 峰 方 法 ， 将 小 波 变 换 与 卷 积 判 别 模型 相 结 合 
能 更 好 地 解决 光 变 曲线 的 寻 峰 问题 。 
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在 实际 使 用 中 ， 可 能 存在 更 长 或 更 短 时 标的 事件 ， 但 模型 寻 峰 的 依据 是 曲线 变化 的 趋势 
是 否 符合 峰 形 。 因 此 针对 不 同时 标的 事件 ， 可 以 通过 改变 数据 切 分 长 度 ， 使 其 能 够 包含 一 个 
完整 的 事件 长 度 ， 再 采用 相同 的 方法 进行 模型 训练 和 寻 峰 ， 或 通过 对 数据 进行 上 采样 或 下 采 
样 ， 改 变 曲线 中 峰 的 宽度 ， 再 应 用 于 已 有 的 寻 峰 模型 ， 就 可 以 实现 不 同事 件 尺 度 的 寻 峰 。 如 
果 对 不 同时 标 数据 进行 重 采样 后 寻 峰 效果 不 佳 ， 可 能 是 由 于 重 采 样 操作 后 的 峰 形 态 与 训练 
集中 的 峰 相差 较 大 ， 模 型 无 法 判断 ， 则 需要 根据 当前 时 标 对 模型 参数 进行 微调 。 而 针对 小 于 
10 ms 的 极端 时 标 事件 ， 重 采样 可 能 无 法 还 原 峰 形 ， 则 需要 获取 粒度 更 小 的 数据 ， 进 行 预 处 
理 等 操作 后 可 应 用 于 寻 峰 模型 。 
此 外 ， 本 文 使 用 该 方法 在 低 增 益 模式 的 数据 集 上 进行 实验 。 数 据 集 采 用 低 增 益 模 式 的 观 
测 数据 ， 将 其 中 峰 对 应 时 间 段 的 数据 进行 适当 的 拉 伸 和 收缩 变换 ， 并 插入 到 无 峰 的 数据 段 
中 ， 作 为 模拟 数据 。 数 据 集中 有 139 个 光 变 曲线 片段 ， 包 含 139 个 峰 ， 直 接 使 用 前 文中 取 s 
= 20 的 模型 在 该 数据 集 上 进行 寻 峰 实验 ， 并 与 第 4 章 实验 中 对 应 模型 的 实验 进行 比较 。 结 
果 如 图 11 所 示 。 
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iE: 红线 表示 在 正常 模式 的 数据 集 上 进行 实验 的 结果 ， 绿 线 表 示 在 低 增益 模式 的 数据 集 上 进行 实验 的 结果 。 


11 “在 正常 模式 与 低 增益 模式 数据 集 上 的 实验 方法 比较 


该 方法 在 低 增 益 模 式 的 数据 集 上 寻 峰 精确 度 更 高 ， 误 报 率 较 低 ， 可 能 是 低 增益 模式 下 的 
数据 中 噪声 峰 影响 相对 较 小 ; 实验 召回 率 相对 较 低 ， 且 由 于 概率 阐 值 p 取 值 增 大 的 同时 召 
回 率 下 降 较 快 ，F1 值 呈 下 降 趋 势 但 整体 表现 优 于 正常 模式 数据 的 结果 ， 可 能 是 由 于 该 模型 
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是 使 用 正常 模式 的 数据 集训 练 得 到 ， 在 低 增益 模式 与 正常 模式 数据 存在 差异 较 大 的 情况 下 ， 
模型 对 真 峰 的 判断 不 够 准确 。 总 之 本 文 提出 的 方法 在 正常 模式 或 低 增益 模式 的 观测 数据 中 
都 能 高 效 准确 地 检测 出 光 变 曲线 中 的 峰 。 


6 结论 


本 文 提出 一 种 基于 小 波 变换 和 卷 积 神经 网 络 模型 的 光 变 自动 寻 峰 方法 ， 并 在 硬 X 射线 
调制 望远镜 的 高 能 望远镜 观测 数据 上 进行 了 实验 验证 ， 实 现 了 对 HXMT 光 变 曲线 中 峰 的 有 
效 检测 。 根 据 实 验 分 析 结 果 ， 本 文 在 以 下 几 个 方面 取得 了 一 定 成 果 ， 使 用 形态 学 项 帽 变换 对 
HXMT 光 变 曲线 进行 处 理 ， 去 除 曲线 中 的 低频 部 分 ， 保 留 高 频 部 分 ， 有 效 减 少 了 光 变 曲线 
中 的 噪声 及 “ 假 峰 ” 的 影响 ， 提 出 了 基于 小 波 变换 寻 峰 与 卷 积 神经 网 络 的 光 变 曲线 自动 寻 峰 
方法 ， 相 比 于 传统 小 波 变换 寻 峰 方法 ， 得 到 准确 率 更 高 的 检测 结果 ， 各 评价 指标 表现 最 优 ; 
该 方法 能 够 在 未 来 的 观测 中 不 断根 据 新 加 入 的 数据 重复 训练 调整 模型 和 提升 精度 ， 比 其 他 
= 方法 有 更 好 的 可 塑性 。 
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附录 A 连续 小 波 变 换 


连续 小 波 变换 公式 为 : 
1 —b 
C. 7 o1 — 75 f^ 9 (525) n , (A1) 
C —— dtl, abe 及，f(t) 为 待 分 析 信号 ，4(b) 为 小 波 母 函数 ，4 DRESE b 为 位 移 参数 ，C 
只 为 小 波 系数 。 本 文 or) 使 用 墨西哥 由 小波 


ul 


vt = (1-8).e7* . (A2) 


附录 B 卷 积 神经 网 络 结构 


卷 积 神经 网 络 (convolutional neural network, CNN) 是 由 Lecun 等 人 "提出 的 一 种 经 典 
的 深度 学 习 方 法 ， 在 图 像 分 类 和 模式 识别 领域 得 到 广泛 应 用 。 本 文 使 用 的 CNN 模型 包括 4 
个 卷 积 层 、4 个 池 化 层 和 1 个 全 连接 层 。 其 中 输入 层 大 小 为 200x2， 卷 积 层 的 结 点 个 数 分 别 
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为 16, 32, 64, 128， 卷 积 核 大 小 为 1x2， 卷 积 步 长 为 2， 全 连接 层 的 结 点 个 数 为 1536。 结 构 
如 图 Bl 所 示 。 网 络 的 每 个 卷 积 层 采用 修正 线性 单元 (rectified linear unit, reLU) 激活 函数 。 


- 
郑 池 卷 d 池 d 池 Y à 
积 HE 化 E d M 积 A 化 : Ám FH. aal 化 bs * Softmax -fi 
E 层 层 层 层 层 层 É 3 


2(200X1) 16(200X1) 16(100X 1) 16(100X 1) 32(50x1) 32(50X1) 64(25X1) 64(25X1) 128(12X1) 
1536X1 2X1 2X1 


Bl ， 卷 积 神经 网 络 结构 


附录 C ”模型 评价 指标 


XX (C1) 一 (C5) 分 别 为 准确 率 、 精 确 率 、 召 回 率 、 误 报 率 和 FI 值 的 计算 方法 : 
TP+TN 


Accuracy = TPI TN FPIFN ， (CU 
Precision — TIPP ; (C2) 
Recall — TP FN ] (C3) 

= FP TP LEN ! en 
False alarm — TR i (C5) 


Kb, TP (true positive) 为 真 阳性 ， 表 示 正 确 检测 到 光 变 曲线 峰 的 个 数 ， 严 P (false positive) 
为 假 虽 性 ， 表 示 将 无 峰 曲 线 错误 检测 为 峰 的 个 数 ，FN (false negative) 为 假 阴性 ， 表 示 未 检 
测 到 的 光 变 曲线 峰 的 个 数 。 精 确 率 和 召回 率 呈 负 相关 。 
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An Automatic Search Method for X-ray Astronomical 
Outburst Events Based on Wavelet Transform and 


Convolutional Neural Network 
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101470, China) 


Abstract: We present an automatic peak-finding method based on the wavelet transform 
and convolutional neural network to identify the peaks of light curves, and it helps to rapidly 
discover potential transient sources from massive data. Here we use the real observation 
data of the HXMT as our experiment data. The experiments make comparisons with the 
wavelet transform peak-finding method, which is commonly used for peak-finding problems 
of spectral or chemical spectral. The results show that the method improves the peak- 
finding precision rate and the F1 value by 42% and 41.396, and reduces the false alarm rate 
by 42.196, while the peak-finding time only increases by 0.18 s. Therefore it can solve the 
problem of light curve peak-finding by combining the wavelet transform and convolutional 


neural network. 


Key words: peak finding method; light curve; convolutional neural network; wavelet anal- 


ysis 


